[レポート]「AWS で実現するデータガバナンス」に参加しました(AWS-10) #AWSSummit
こんにちは。たかやまです。
現在開催中のAWS Summit Japan 2024で行われた「AWS で実現するデータガバナンス」のレポートをお伝えします。
動画/資料も公開されましたので、ぜひご覧ください!
セッション概要
タイトル : AWS で実現するデータガバナンス
不確実性の高い VUCA の時代において、データは企業にとってヒト・モノ・カネに比類する重要な経営資源であり、ビジネス上の競争優位や付加価値を生むための源泉となっています。そのため、大量に生成されるデータを企業全体として適切に管理し、従業員の誰もがデータから継続的に価値を引き出すための仕組みを構築することが求められています。このセッションでは、AWS のデータガバナンスフレームワークを紹介し、Amazon DataZone をはじめとするAWSが提供する豊富な関連サービスによる、データガバナンスを実現するための手法とベストプラクティスについて解説します。
スピーカー :
大薗 純平セッションレベル : 300
レポート内容
データガバナンスとその課題
- データは戦略的資産として各企業で以下のアプローチをしている(出典: NewVantage Partners)
- 投資を増やしている97.0%
- データ戦略を策定している53.0%
- ただ、2025年までにデジタルビジネス拡大を目指す80%の企業がデータガバナンスの最新のアプローチを採用していないため失敗する(出典: Gatner)
- 各社データガバナンスはデータ戦略の最優先事項として位置づけている(出典: AWS)
- データガバナンスとはなにか
- 漏洩や誤用をふせぐため企業内のデータを限られた範囲に閉じ込める
- のではなく、ビジネス上の取り組みや運用をサポートするため企業内のデータを適切な状態にしておくこと
- データガバナンスはイノベーションを加速させるためのガードレールであるべき
- AWSにおけるデータガバナンスフレームワーク
- Curate : データプロファイリング、データリネージ、データカタログ
- Understand : データセキュリティ、データコンプライアンス、データライフサイクル
- Protect : データ品質管理、データ統合、マスターデータ管理
- データガバナンスフレームはいきなりすべてやる必要はなく、必要な項目からやるので問題ない
- データガバナンスフレームの3つの柱
- Curate : 機密情報の特定と対処データ品質管理として Glueの活用
- Understand : メタデータ管理として Amazon DataZoneの活用
- Protect : データセキュリティ管理として Amazon DataZoneの活用
Curate
- データを分類・整理する目的
- データを自身を持ってデータをビジネスに活用できるようにするために
- 機密情報への対処
- データ品質管理
- 品質の悪いデータは深刻な結果をもたらす例
- 患者の体重記録ミスによりその後の投薬ミスへ影響
- データの誤りや欠損は意思決定に大きな影響を与える
- 機密情報への対処とデータ品質管理
- ETLパイプラインで機密情報への対処とデータ品質管理
- 定常運用によるデータ品質管理
- これらの処理をAWS Glueはカバーする
- AWS Glueにおける機密データ検知
- 識別されたPIIは
***
とうの固定文字列で変換可能 - 日本独自のデータタイプもカバー
- 銀行口座
- 運転免許番号
- マイナンバーカード
- パスポート番号
- 正規表現でカスタムパターンも定義可能
- 識別されたPIIは
- Glue Data Quality によるデータ品質管理
- データを自動的に分析し、データ品質ルールを推薦
- 手動でデータ品質ルールを作れる
- 推薦されたルールに基づきデータ品質をモニタリング
- データ品質ルールはメンテナンスするのが非常に大変だが、Glueを利用することで自動化することができる
- 公開に適した高品質なデータ整備例として
- S3に保存したデータをGlue ETLパイプラインで処理
- 個人情報の匿名化
- ID統合
- 結合・集計
- データ品質管理
- その後の定常運用もGlue data Qualityで実施
Understand
- 必要なデータは整った次に求められているのは理解のためのデータガバナンスソリューション連携
- Understandで役立つサービスとしてAmazon DataZone
- 組織の境界を超えたデータアクセス管理を実施
- データとツールを共有し関係者とのビジネスインサイトを促進
- 生成AIでデータの発見とカタログ作成を自動化
- Amazon DataZoneのコンポーネントのポイント
- データポータル
- ビジネスデータカタログ
- すべてのデータ資産をメタデータとして登録
- データはDataZoneに保存する形ではなく、もとデータへのメタデータをはる
- メタデータにおける代表的な要件
- データがどこにあるかわからないので検索したい : Amazon DataZone データポータル機能
- データの意味とそれがどのように活用できるのか知りたい : Amazon DataZone ビジネスメタデータ機能
- データが信頼できる品質のデータなのかを知りたい : データ品質連携機能
- Amazon DataZoneデータポータル機能
- データを共有したいチーム(データプロデューサー)が既存テーブルのアセットをメタデータとして登録
- データを活用しチアチーム(データコンシューマー)がメタデータを検索/発見/アクセス/申請/データ分析まで実行可能
- Amazon DataZoneビジネスメタデータ機能
- テーブルやカラムのビジネスラベル/説明/READMEの抽出
- データソース(実際のデータの場所)のテクニカルメタデータの取得
- データ資産に付加するメタデータの付与
- 情報の取り扱い区分
- 国外ユーザーからの参照可否等...
- ビジネスメタデータ生成の自動化
- 手動分類・整理には時間がかかる
- そこで生成AI(BedrockのLLM)を活用
- テーブルとカラムと説明を自動的に生成
- データ資産の概要や活用例などの人での登録が困難な情報も自動的に生成
- Amazon DataZoneデータ品質連携機能
- 公開されたデータ品質のメトリクスを確認し、データ活用の判断に利用できる機能
- Glue Data Qualityや3rd Partyのデータ品質ツールからのメトリクス表示を自動化
Protect
- 組織間を超えたデータセキュリティ管理の難しさ
- 販売データにアクセスためのポリシーに従っているか確認したい
- 誰がこの販売データにアクセスできるのか
- このデータをデータ分析ツールに接続するには...
- 上記の課題を解決するのがAmazon DataZone
- Amazon DataZoneを利用することで
- データの発見、アクセス申請
- アクセス許可、権限設定
- データへの接続、分析、活用
- 企業全体のポリシーを担保
- アクセス申請のワークフロー
- DataZoneにプロジェクトという概念があり、プロジェクトベースに操作を行う
- メタデータ登録のワークフロー(データプロデューサー)
- プロデューサープロジェクトへ分析ツール/ユーザー/物理データを登録し、ビジネスデータカタログへメタデータ登録する
- アクセス申請のワークフロー(データコンシューマー)
- コンシューマープロジェクトからアクセス申請を行い、物理データへアクセスを許可される
- アクセスの自動で設定してくれるのは以下のリソース
- Redshift
- Lake FormationのGlue Table
- 他のデータソースへの自動アクセス付与はアクセス申請をトリガーにLambdaにアクセス付与などの作り込みが必要
データガバナンスを浸透させていくために
- フレームワークやテクノロジーだけではデータガバナンスを浸透させていくことは難しい
- データガバナンスを実現するための主要な役割
- データスチュワード : ビジネスニーズに合わせてデータを管理・活用推進していく役割
- 外部から雇うなど作るものではなく、企業の中から見つける
- 片手間ではなく正式に任命し、役割を与えることが重要
- データオーナー : データを所有する管理者
- データに関するポリシーの策定
- データスチュワードと緊密に連携する
- データエンジニア : データの変換と活用をサポート
- データスチュワードをテクノロジー観点でサポートする
- データガバナンスを浸透させるには大風呂敷は広げずビジネスイニシアチブから始める
-「データガバナンスの推進」を目的としたイニシアチブとして始めない
- 特定のイニシアチブの短期的な成功を優先しつつも、データガバナンスの適用範囲は狭くしすぎない
- 徐々に他のビジネスイニシアチブにデータガバナンスをスケールさせていく
- マインドセットの変革
- 誰もがコンシューマーになりたがるが、プロデューサーになりたがらない
- マインドセット変革のために、まずはビジネスイニシアチブへのデータガバナンスの適用をすすめ成功体験を増やしていく
やってみる
最後にすぐに試せるデーガバナンスのワークショップが紹介されていました!
最後に
私自身、Amazon DataZoneを利用したことがなく、今回のセッションを通じてその機能や活用方法を知ることができました。
これからの生成AI需要において、このデータガバナンスのニーズはますます高まっていくと感じています。そのためにも今回紹介されたデータガバナンスフレームワークやAmazon DataZoneを活用して、データガバナンスを実現していくことが重要だと感じました。
また最後の推進に向けての話では「片手間ではなく正式に任命し、役割を与えることが重要」であったり、「マインドセット変革のためにまずは成功体験を増やしいく」データガバナンスに限らず、他の組織の変革にも通じる大事なポイントだと感じました!
以上、たかやま(@nyan_kotaroo)でした。